查看原文
其他

闭门交流纪要:大模型在机器人领域的应用探讨

变量资本 Founder Park 2023-07-24

我们正在组织以大模型为核心话题系列闭门讨论。

这是第 2 场,主题是《大模型在机器人领域的应用探讨》。

围绕「大模型对于机器人带来什么影响,会不会引爆新的机器人品类?机器人领域的 Foundation Model 将会被如何构建?存在什么机会?」等等话题,初步一些结论如下:

  1. 把大语言模型当做一个通用的序列模型,然后在一个大模型里处理所有的信号,而不是像以前用各种模型拼接(多模态输入到统一的大模型),最后用它综合去做推理、规划乃至于预测(多模态输出),这可能是大模型在机器人领域的革命之所在。Å
  2. LLM 对于工业机器人、服务机器人和陪伴机器人的影响是从小到大的,其中陪伴类机器人是最值得期待的机器人品类,大模型可以解决机器人的多模态交互问题,在机器人「小脑」的垂直任务能力基础之上,补上「大脑」的通用处理能力,被看作是最大的机会之一。
  3. 机器人领域有着数据缺乏的问题和赛道分散、割裂的问题,可能会造成机器人的 Foundation Model 近期很难落地,而合成数据可能会成解决数据问题的途径之一。
  4. 大模型可能会进一步降低目前机器人算法的价值;大模型的发展,为基于机器人协作的原生工作流带来了更多的可能性,这可能会进一步给机器人硬件的设计带来新的命题和机会。


参与者大多是行业资深创业者、投资人、科学家等等,因隐私考虑,这里隐去姓名。


以下是重点内容摘要:

*文中所有内容不代表主办方的观点和立场


Part 1

大模型给机器人带来的改变
1-1 :看好大模型给整个机器人行业带来哪些改变 ?

专家反馈:

大模型对于机器人的影响大小依次来看:
  1. 首先,未来对交互类机器人的帮助是最大的:大模型可以解决一个非常重要的机器人交互问题:多模态。16 年机器人百花齐放的时候,出现了很多有强交互型的机器人,比如说商场导引类机器人,教育机器人以及养老机器人,不过这一波发展并不好。核心原因在于这类机器人强调泛化类的交互能力,这就需要多模态的能力作为支撑,但当时解决不了,有 2 个很核心的问题:1)没法结合上下文,是一问一答;2)无法理解场景。
  2. 其次,是有一定交互但不强调交互的服务型机器人:偏工具型(作业型)服务机器人,可能在利用大模型的部分功能上有意义,但把整个大模型套上去不一定有用,需要进一步细化和切割来看。这类机器人需要的不是广泛意义上的交互能力,比如酒店服务机器人在配送的时候其实有个困扰:担心小朋友或者老人喜欢跟机器人调侃。但在做一些在特殊条件下收敛问题的工作,比如帮我去拿瓶水,这块大模型的进步会带来较大的变化。
  3. 最后是工业机器人:它可以利用大模型的多模态能力,比如通过摄像头摄入当时的场景和咖啡杯子直接来完成,实现所听即所做。
  

专家反馈 :

  1. OpenAI 的大模型把 AI 系统的开发模式给重新定义了,现在已有的机器人以及自动驾驶,我认为整个开发模式还相对是小模型,是一个数据量相对不大、重算法、强人力密集型投入的开发模型。OpenAI 的颠覆在于:用一个相对较小的算法团队,然后用大量的数据,真正地把端到端的大模型给做出来(更多是指语言类的大模型)。
  2. 很有可能下一代的机器人和自动驾驶会是一个端到端的大模型,它很有可能是在云端的一个基于大量的数据(有 90% 以上都会是合成数据去训练出来的)的训练出来的大模型。但是如果不是端到端的话,可能就是几个大模型连起来的一个大模型。我们需要有很强的工程化落地的能力,可能要把大模型再蒸馏剪枝,然后放到端侧,从而在端侧去支持机器人不同的落地场景。
  

专家反馈 : 

  1. 大语言模型对于机器人的人机交互逻辑的改变是最基本的,因为很多情况下人并不需要跟机器人交互,机器人绝大部分工作应该它自己悄悄把事情给干了。(补充:AutoGPT 便表现出了对于复杂任务的自动化拆解和完成)人其实也没有太大的兴趣跟机器,尤其是一个物理机器人在一个很嘈杂的环境下去进行有效的交互。
  2. 更重要的影响是:把大语言模型当做一个通用的序列模型(机器人收集到的各种传感器数据,包括声音、图片等,都可以看在时间轴上的序列信号),然后在一个大模型里处理所有的信号,而不是像以前用各种模型拼接(多模态输入到统一的大模型),最后用它综合去做推理、规划乃至于预测(多模态输出),那这个时候才会是革命性的变化。
  3. Transformer + GPT +序列数据:transformer 是底层的一个深度神经网络的模型,在它之上可以用 BERT,可以用 GPT 这种预测下一个 token 的序列模型。

1-2 :工业机器人对于智能的需求特点是什么 ?大模型改造工业机器人的可能性和边界是有多大?
专家反馈 :
  1. 从原来人从事工作所需要的智能程度,我们也可以对机器人的工作本身所需要的智能进行一定的推测:服务机器人是偏服务业,它的对象是为人服务,那各种条件就会更复杂一些,所以它更需要这种大模型来给它一个更高的智能。制造业就是有点偏蓝领工作,即使是现在人在整个制造业里边也是会被管得非常严,所以工业机器人的自由度是受限制的。而工业本身的需求正好和现在对人交流的智能的复杂性需求相反,工业机器人其实不需要太高的智能,它的一个本身的产业特性,就是把复杂的工作尽量做得简单化,然后让原来的工业机器人就可以去实现。
  2. 在工业基层场景里边,我现在觉得除了箱中取物 (Bin-picking) 还有外观检测以外,它们工况比较复杂,但即使用到 AI,也只是一个小规模的模型,还用不到大模型。但外观检测有一点需要特别说一下:现在针对一个产品,尽管它所需要的数据量不大,但问题是每个新产品都要去学习一次。所以从这个角度来说,大模型如果可以实现学习和教完一次以后就再也不用教的话,我觉得这个的需求是非常大。
  3. 其实在做工业的时候,它的性价比以及成本有的时候考虑是非常重的,它比你用多强的黑科技更重要。

专家反馈:
  1. 用机器人替代人核心有两步:第一步,机器人模仿人的动作;第二步,怎么把机器人的特点更多地发挥出来。人的特点其实是智能化和柔性,工业机器人的特点就是稳定性、持久性和力度。
  2. 在制造业里面的机器人,无论是工业机器人还是协作机器人,它其实本质上做的就是机器换人,然后把人解脱出来,所以在换的过程中遇到了非常大的一个挑战就是如何教。原来是老师傅教徒弟的方式,那么现在的方式是说,怎么能够首先让机器人快速地学会老师傅的一些技能,在这个层面会用到很多学习的模式,而这是大模型可能可以发挥的地方。
  3. 机器人去完成一个任务,不仅需要学会,还要可以通过完成具体的动作来做出来。机器人本身的硬件乃至一些底层设计,不一定能完成人本身能完成的一些动作。在制造业的工作流中,很多时候设计可能就是用人来给它造出来的,而不是为了给机器人工作来做设计的。未来机器人的设计以及协作流是不是也会有一个大的变化?
  4. 假设机器也变得越来越聪明了,但很可能硬件本身反而限制了变聪明之后的「大脑」。大模型在制造业里面也许会对机器人上下游本身核心零部件的创业,带来非常大的机会。

1-3 :服务机器人目前遇到的核心问题是什么?大模型将如何改造服务机器人?
  1. 给机器人增强大脑的能力:在某些特定的领域里面去做事情的过程中,发现机器人可能缺乏一个统一管理的大脑,在如何跟人之间,以及和环境之间形成互动是有缺失的。在这个基础之上,我们通过被称之为调度系统(也可以叫交互系统或者管理系统),试图把一个机器人跟某个具体应用场景中的人和业务流程进行结合。比如在以前的酒店配送机器人之上,我们做了酒店机器人的数字化管理系统,用它跟酒店的客人进行交互来收集需求,然后再去调用机器人去执行相关的一些任务。这就是所谓的在机器人本体的小脑之上,我们去做一些延展性的工作。而 AGI 使得机器人的大脑可以变得更更智能、更通用。这样的话它就可能具备更泛化的能力,去理解和响应更多人的需求,从而去调用其他机器人或者调用其他的工作人员,一起人机协同地完成任务。这个是我们认为看得到的一个提升的方向。
  2. AGI 和机器人的互相促进:随着机器人本身使用量的增长以及使用频度的增加,机器人跟物理世界的交互和感知也能够大规模地产生多模态数据,这个可以赋能到 AGI,那 AGI 也将具备更强和更泛化的对于物理世界的理解和推理的能力。而机器人自身在 AGI 赋能之下也会具备更强的智能,不仅是浅层意义上更好的人机交互,还包括在认知和决策层面上,实现真正意义上 AGI。

1-4:会不会出现一些新机器人,可以更加充分地利用大模型进步带来的可能性 ? 
  1. 智能音箱(包括涉及到一些不带移动、不带抓拿这种场景的对话机器人)这样的大品类,其实是这次大模型升级最显著的,能扮演和创造一些陪伴的作用,它可能不具有说在执行上面有更精细化的动作,比如端茶倒水,但是却可以实际能解决一些陪伴场景的问题。一旦有移动做进去,可能最大的问题也在于拉高了用户的预期,但实际上移动在家庭这样的复杂场景其实会带来很多负面的问题,反而它不动可能会有新机会。我们自己去尝试做教育垂类的时候,发现在家庭书桌上有很多孩子的陪伴场景,已经能够建立起一些垂直场景的用户购买的意图了。
  2. 它可能更像一些不跟原子打交道的机器人,而是跟比特互动的机器人,以信息流为主,可能做着做着又会演进到是一个屏幕或全息的成像为载体,它是一个数字的影像,角色切换成各种各样的 IP 的形象。这就回到了前些天,有公司把 ChatGPT 接到了一个 3D 成像的屏幕,它可以帮孩子去讲很多故事,这种形态下,内容呈现会很丰富。这是我们目前在探索的一种形式,它不一定要把手和脚长出来,但它具有陪伴能力。
  3. 在交互的升级上,大家更期待的是机器人对于人的主动意愿理解和情感感知,这部分在大模型的加持下也是要往前走一层的,它能够实现具有角色性的对话任务,比如你可以给它输入一个角色,让它去扮演这个角色。机器人可以具有长时间的 memory,具有对于你的个性化的数据录入。这两层我觉得一旦具有起来之后,就可能可以提供很多真正是多模态的场景,个人家居生活当中需要的更懂你的服务体验就会建立起来了。

Part 2
机器人大模型的数据问题
2-1:如果现在没有人做机器人大模型,或者说还没有看到一个成熟的在机器人领域的 Foundation Model,它可能原因会是什么?
专家反馈 :
大模型刚出现,受到公众的关注时间也不久,然后机器人相对于 ChatGPT 的这种文本型态模型来说,机器人要复杂很多,因为它涉及到是一个多模态的问题。比如数据问题就挺大的,需要积累大量且真实的视觉数据;同时一旦做到多模态,数据的对齐 (alignment) 也是一个非常大的问题,就是怎么把各种模态的数据做对齐,这还有很多技术挑战在这里面的。
 
专家反馈 : 
  1. 虽然都是属于做机器人这个大领域,但其实大家关心的问题并不统一。原因在于机器人是个散装行业,它横跨从工业一直到家用再到商用,可能每领域都不一样。然后每个领域下面又有很多小的分支,就会体现很多的稀奇古怪,也特别复杂的问题。
  2. 很可能机器人大模型没有那么快能够去实现,可能是 2 到 3 年之内都不太会产生一个特别终极的解决方案,除非是在 GPT 的方法论上有很大的提升 。之所以这样看,原因有两个 :1)数据的丰度问题:对于 ChatGPT 来说,实际上 GPT 是它的方法论, Chat 是它的表现。对于语言来说,每个人可能每分钟 100 ~ 200 字,转化成计算语言就是 1~2 k 字节每秒的传输速率,这个数据甚至是远小于机器关节运动的所产生的信息量。机器人在单位时间内能够产生大量的数据,远超语言几个数量级。2)机器人领域缺乏数据基础:对于 ChatGPT 来说,公开的互联网数据十分充足,有大量的公域数据可供爬取。以 Twitter 为例,它用户基础庞大数据,对话数据丰富,爬下来的数据很可能是无偏的。但机器人缺乏数据,更不存在什么机器人领域的「Twitter」了。此外,在机器人领域的行业横向切割和厂商的纵向切割,把爬虫(数据共享)在行业里面存在的可能性都给搞没了:
    a)每个行业都会倾向于去保护自己行业的数据,就有排外的特点。
    b)机器人本身是一个物理实体,厂商之间也会有各种各样的壁垒,每一个厂商在功能模块和相互设计之间也会设壁垒。

2-2:合成数据有多大程度上可以解决机器人大模型所面临的数据问题?
  1. 理论上来讲是可以的,但我觉得存在的核心问题是现在到底是否有类似的需求,因为现在的机器人(偏专业的机器人)本质上还不是一个大算法、大模型来驱动。我认为这其实是一个鸡生蛋、蛋生鸡的问题。我认为最大的机会还是在端到端大模型对于数据量的强需求,从而会带来的一个跃变。
  2. 比如说机械臂就是分拣一些物品,那么如何去泛化,从而可以在分拣的物品上提升可能性,现在整个行业已经有很多的合成数据的应用。所以在我看来,在这种相对偏专业化的场景,无论是自动驾驶或者是工业中和感知相关的场景,其实已经有了不少合成数据的应用了。
  3. 最大的机会在哪里?其实就是在将来大家不见得愿意去分享数据,那么如果说我们希望整个机器人行业有一个通用的大模型,那首先要解决这些真实的数据从哪来的问题,不见得每家都愿意将自己的真实数据分享出来。这个时候其实也需要一个真实与虚拟的数据转换的过程,就是通过一套生成式数据(合成数据)的算法,能够帮助整个行业去泛化生成更多的数据出来,从而打破机器人领域的数据孤岛。

2-3:有了大模型之后是不是会降低机器人算法的价值 ?
  1. 我们做的仓储机器人是一个比较特别的场景,定义是服务机器人,但它是一个工业机器人的标准要求,有很多人机交互,然后还是一个大规模的交互和群控的过程,可能一个场景里面有 500 台机器人,它的所有机器人路线都是随机的。因为它的机器人的轨道是无序的,所以它每次的模型取处理的数据(包括每次机器人识别到的点云数据,或者说是路径数据、视觉数据)是不一致的,它每次遇到的都是不一样的。
  2. 我们做移动机器人其实是相当于是一个传统的 AMR,加了一个分布式的软件架构。分布式的软件架构,相当于是每个机器人自己作为一个计算主体,然后机器人和机器人之间会分享一些数据和信息。最近也在看大模型方向,我会觉得它是以超大规模的计算能力加上超大的数据输入,做出的一个端到端的系统。未来在机器人领域,它有可能是一个大模型算完之后,再去让机器人去做执行过程,它当然也有可能是另外一种状态,所有的机器人都是计算终端,然后大模型会分布到所有的计算终端里去,然后计算终端不断地在搜集各种环境的信息。突破现在只是通过算法来控制机器人的状态,而可以更加智能地处理信息。所以我的基本观点是大模型在机器人的应用,它一定是分布式的,并且是它能够把整个机器人系统的算法消灭掉,算法的价值在下降。


Part 3
大模型和机器人融合的卡点问题
3-1:目前机器人从视觉(看见)到决策以及执行的整个过程中,最大的需要解决的不连贯问题会是什么?
比如一个机器人的导航系统,核心是感知、路径规划和控制,但现在感知是一个独立的模块,路径规划是个独立的模块,然后控制又是一个独立的模块。最后把这些模块整个串起来,组合作为整个机器人的一个导航的系统。其实不久的将来,这块一定会有突破的:把整个视觉甚至加上其他的一些传感器(比如包括激光雷达或者深度摄像头)综合起来,包括规划乃至于一直到最终动作的执行,可以把整套系统全部都串起来的端到端的大模型。其实如果这样的一个机器人 Foundation Model 能够产生的话,对整个机器人来说,尤其是服务机器人来说,是一个非常大的帮助。

3-2:工业机器人从数据输入到决策再到执行,目前面临的核心问题是什么?
专家反馈:
目前从计算机视觉的角度来说,好像很多的问题可以被解决,但在制造业里面要做到机器换人其实光看到不太行。经常听到有一些制造业的客户包括产线工人说,你给我一个机械臂可能不太够用,你可能给我一双灵巧的手。这样才可以更容易完成从感知到制造的整个环节的闭环。所以我目前看到的就是在制造业中工业机器人以及协作机器人,其实它们很多的点到点的工作已经完全可以做了,但是去完成一些复杂精密的动作很难。而这些挑战的核心是多模态的问题,就不光是有视觉的感知和其他的感知,更重要的是如何有执行力地把这件事情给完成,我觉得这是比较大的一个挑战。

专家反馈: 
  1. 其实整个机器人 grasping(抓取) 和 manipulation(操作)实际上还是比较困难的。我们之前也做一些机器人仿生学方面的研究, 从整个人类的神经元来说,手部的可能会占大概 25% 到 30%,此外手部的驱动的关节数又比较多,对灵巧度要求非常很高,尺寸也需要做的很小,这在控制系统上要想实现就比较复杂一些。
  2. 我们之前在开发机器手的时候遇到的第一个问题就是如何去设计一个真正的机器人手,如何真的能去用?仿真环境可能会好一些,但如果离开仿真环境到底是否要对手的模型做一定程度的简化,是否要做成像人一样比较灵敏的一个机器人手。但如果不做简化直接去做的话,就会面临着到底怎么能把它做出来的问题?因为它有很多不同的驱动方式,也会受到尺寸和输出的承载力限制,就会有特别多的限制。我们之前在欧洲的时候和仿人机器手公司 Shadow Robot(一家总部位于伦敦的公司,该公司主要根据人类的功能和特征来构建机器和系统,以提供在敏感的研究和危险的条件下执行复杂任务的机器人服务。)也有很多的合作。从实际效果来讲,即使像 shadow 这种做的比较长时间的公司,依然面临着手如果没精度就没办法精准地去控制它到某一个位置,就摆一摆动作还可以,但真正地让它去抓个东西,或者说去做一些使劲的动作,还是很困难的,这面临着很大的硬件问题,有很多物理上的限制。
  3. 在软件层面涉及到的问题就是这些关节是如何去联合一起动,因为它是一个很高维的运动空间,你同时要做十几个到二十几个关节的运动规划,那运动规划的算法如何去解决整个运动的一些问题?我们之前也用了一些 AI 的方式,更多的是一些机器学习的方式,而非偏 deep learning 相关的。我们争取把整个典型的机器人手的一些运动,变成一些关节耦合起来,进而通过一个高维空间的数据的采集,然后通过数据降维的方式,把它变成一些低维空间的表达。这样的话,就可以在低维空间里面去做它的运动规划,之前基本上都是这样去做的。但我觉得灵巧操作其实是一直大家都想去做的,但说实话,真的实现有一双非常灵巧机器手,这件事情真的非常难。

3-3:难度更多是在硬件,还是在软件?
专家反馈 : 
  1. 我觉得其实更多的集中难度是在底层的硬件设计方面。如果有了更复杂的一些神经网络的算法,其实在控制端反而会变得容易了一些。但真正地去把动作实现,它涉及到很多硬件层面的问题,比如说在制造业里面位置的感知,力的反馈以及尤其是当你真正地让机器手去做一件事的时候,那还有很多触觉的反馈来判断到底状态,那这些数据或者这些反馈的信息如何能够跟控制系统结合?这个我觉得还是目前来说还是一个比较困难的地方。
  2. 那对于硬件的设计来讲,OpenAI 领投了挪威人形机器人公司 1X Technologies 也用了一个非常简单的两根手指,就是直接这样一个非常简单的加持器的设计,就基本上它能够做一些事情,比如把产品从一个地方放到另一个地方做一个简单的搬运动作,但并没有说去做很多比较复杂的,就像人手一样比较精巧的操作。当然还有一种折中的方式,就我们可能针对不同的应用的场合有不同的 griper,比如可以说设计出 5 - 8 种能够适应于不同场景的比较独特的 griper,让它就不一定像人手这样的一个设计。可以去通过快换的方式做切换,把这些动作变成一些硬件比较容易去实现的,这样的话它的稳定性会更好一些。 
  
专家反馈 : 
  1. 作为一个灵巧手,它可能现在面临的挑战还真不是那三十几个关节是不是能够控制好的问题。这里面有一些特殊的方法可以实现,我可以把这三十几个关节的控制率去做降维,这也是在 manipulation 这个方向比较常用的一些传统的解决方法,甚至有了新的算法加持之后,可能在 grasping(抓取) 和 manipulation(操作)上,有更有价值或者更简单的解决方法。
  2. 有了 GPT 其实是极大地降低了算法的价值,这个结论我是特别认的,确实很有可能会在这个方向是这样。那在灵巧手这个方向面临的挑战可能就变成了灵巧手的本体到底能不能做到位?是不是能够把这个手的结构做好?至少在这个领域里面,它的问题就塌陷成一个跟 GPT 都没有什么特别大关系的的问题,或者说不一定是完完全全特别主要矛盾一个方向上了。但毕竟主要矛盾可能不一定完全在控制或者在算法上,而是在机器人的数据问题上,机器人领域的基础大模型可能没有那么快落地。

3-4:能否训练一个相对通用的大模型,然后降维用到机器人的具体场景中?
  1. ChatGPT 的一个启示是大力出奇迹,我认为在做一个端到端大模型的时候,把数据灌得足够大的时候,是可以把模型的泛化性给灌出来的。目前机器人领域相对分散和垂直,其实未来需要在所有场景以及相应泛化的场景中,用几个数量级以上的数据来灌到大模型,我相信它肯定会就灌出来一个泛化性更强的大模型。当然如果实现这个大模型,到时候可能遇到的就是另外的问题了。可能在云端会有比较强的一个端到端、且足够泛化的大模型,但是在端侧,到底需要多大能力的一个芯片,或者说需要有多长多强的工程化的剪枝的能力,可以将大模型去落到端侧?这可能是个比较大的挑战。
  2. 目前像羊驼模型就是可以看成基于 ChatGPT 训练出来的。未来很可能,基于最大的数据量灌出来的大模型,它已经是非常泛化来,那么经过这个最大的大模型再去训练出来端侧的小模型,然后以相对来说可以的算力去落到具体的专业化的应用场景上,这可能是一个方向。 


Tech Insight Corner 是由极客公园变量资本发起的闭门交流,邀请各领域的专家学者及创业者就特定的行业和话题进行深入探讨,挖掘产业核心变量,关注技术趋势和行业未来,陪伴创业者思考并进行下一步行动。


和我们联系:
变量资本管理合伙人吴江和极客公园研究员王式,是 Tech Insight Corner 闭门的主持人 ,如果您想参与闭门讨论,或者与我们进行一些开放性的合作探讨,欢迎扫码填写表单联系我们。
扫描二维码,填写闭门讨论报名表


关注FounderPark,抢先进入AGI时代




如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。




更多阅读
历史第一黄仁勋:创业30年,万亿美金,他还是CEO

ChatGPT要起飞了!OpenAI刚刚招了一个世界级产品经理

黄仁勋发布全新最强GPU,专为大模型打造,微软谷歌Meta排队预定

微软个人助理来了!Copilot是最好的AI产品形态,插件将成为新的平台模式

最好的回应,孙燕姿为人机之争画上句号

Stability.AI创始人万字访谈:数据不要全球化,五大巨头谁能赢得AI大战?

微软CEO纳德拉访谈:OpenAI合作,谷歌搜索竞争,世界需要10亿开发者


转载原创文章请添加微信:geekparker


Founder Park 正在招募新的 AGI 观察者


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存